In [65]:
Sys.setlocale("LC_ALL", 'en_US.UTF-8')
library(datasets)
library(dplyr)
library(ggplot2)
options(repr.plot.width = 6, repr.plot.height = 4)
In [6]:
calidad_aire = read.csv("https://raw.githubusercontent.com/rpmunoz/topicos_ingenieria_1/master/clase_4/data/nyc_calidad_aire.csv")
head(calidad_aire)
In [7]:
summary(calidad_aire$Viento)
Consiste en el uso de cajas rectangulares encerradas por arriba y por abajo de líneas que representan los quartiles Q3 y Q1 respectivamente. La línea que pasa por el centro de la caja es la mediana. Los bigotes son las líneas que se extienden desde el centro de la caja hasta los valores máximos y mínimos. En caso de existir valores atípicos, estos se denota usando símbolos fuera de los bigotes.
In [22]:
ggplot(calidad_aire, aes(x = Mes, y = Viento)) +
geom_boxplot()
R interpreta la columna Mes como una variable numérica y continua. Debemos transformar el tipo de datos de la columna Mes en un factor etiquetado para usar como varible de agrupación.
In [15]:
calidad_aire$Mes <- factor(calidad_aire$Mes,
labels = c("Mayo", "Junio", "Julio", "Agosto", "Septiembre"))
In [24]:
ggplot(calidad_aire, aes(x = Mes, y = Viento)) +
geom_boxplot(fill=I("blue")) +
ggtitle("Gráfico de cajas para la variable Velocidad del viento") +
xlab("Mes") +
ylab("Velocidad del viento (kmh)")
In [31]:
ggplot(calidad_aire, aes(Viento)) +
geom_histogram(bins=12, fill=I("blue")) +
ggtitle("Distribución de la variable Velocidad del viento") +
xlab("Velocidad viento (kmh)") +
ylab("Frecuencia absoluta") +
geom_rug()
Un gráfico de barras se emplea cuando la variable bajo análisis es del tipo nominal (cualitativa). Este tipo de gráfico está compuesto una serie de columnas o filas ordenadas.
Las columnas son dispuestas sobre una etiqueta que representa una variable nominal
La altura de la columna indica el tamaño del grupo definido por la etiqueta de la columna.
In [56]:
head(mtcars)
In [59]:
ggplot(data = mtcars, aes(as.factor(cyl))) +
geom_bar(stat="count", fill=I("blue")) +
xlab("Número de válvulas") +
ylab("Frencuencia absoluta")
In [ ]:
Analizar la existencia de posibles relaciones entre las variables del dataset.
En general se aplica análisis bidimensional (dos variables). Los casos típicos son,
In [66]:
salarios <-read.csv("https://raw.githubusercontent.com/rpmunoz/topicos_ingenieria_1/master/clase_4/data/salarios_hombres_usa.csv")
head(salarios)
salarios_muestra <- salarios[1:100,] # usamos las primeras 100 filas
In [67]:
ggplot(salarios_muestra, aes(experiencia, sueldo)) + geom_point(aes(colour = sindicalizado))
In [68]:
ggplot(salarios_muestra, aes(x = sindicalizado, y = sueldo)) +
geom_boxplot(fill=I("blue"))
Se podría derivar que los trabajadores que no están sindicalizados en promedio tienen mejores sueldos que los que sí están sindicalizados.
Es importante tener en cuenta que una correlación no implica relación causal. Es posible que los trabajos mejor pagados no permitan a sus trabajadores sindicalizarse.
In [ ]: